使用遥感图像进行建筑检测和变更检测可以帮助城市和救援计划。此外,它们可用于自然灾害后的建筑损害评估。当前,大多数用于建筑物检测的现有模型仅使用一个图像(预拆架图像)来检测建筑物。这是基于这样的想法:由于存在被破坏的建筑物,后沙仪图像降低了模型的性能。在本文中,我们提出了一种称为暹罗形式的暹罗模型,该模型使用前和垃圾后图像作为输入。我们的模型有两个编码器,并具有分层变压器体系结构。两个编码器中每个阶段的输出都以特征融合的方式给予特征融合,以从disasaster图像生成查询,并且(键,值)是从disasaster图像中生成的。为此,在特征融合中也考虑了时间特征。在特征融合中使用颞变压器的另一个优点是,与CNN相比,它们可以更好地维持由变压器编码器产生的大型接受场。最后,在每个阶段,将颞变压器的输出输入简单的MLP解码器。在XBD和WHU数据集上评估了暹罗形式模型,用于构建检测以及Levir-CD和CDD数据集,以进行更改检测,并可以胜过最新的。
translated by 谷歌翻译
为了为视频产生适当的标题,推理需要确定相关的概念并注意它们之间的空间关系以及剪辑中的时间发展。我们的端到端编码器视频字幕框架结合了两个基于变压器的体系结构,这是一种用于单个关节时空视频分析的改编变压器,以及用于高级文本生成的基于自我注意力的解码器。此外,我们引入了一种自适应框架选择方案,以减少所需的传入帧数,同时在训练两个变压器时保持相关内容。此外,我们通过汇总每个样本的所有基础真理标题来估计与视频字幕相关的语义概念。我们的方法在MSVD以及大规模的MSR-VTT和VATEX基准数据集上实现了最新的结果,并考虑了多个自然语言产生(NLG)指标。对多样性得分的其他评估突出了我们生成的标题结构的表现力和多样性。
translated by 谷歌翻译
本文提出了一种对无线通信中的一类主动感测问题的深度学习方法,其中代理在预定数量的时间帧上与环境顺序地交互以收集信息,以便为最大化一些实用程序函数来执行感测或致动任务。在这样的主动学习设置中,代理需要根据到目前为止所做的观察结果来依次设计自适应感测策略。为了解决如此挑战的问题,其中历史观察的维度随着时间的推移而增加,我们建议使用长期短期记忆(LSTM)网络来利用观察序列中的时间相关性,并将每个观察映射到固定的尺寸状态信息矢量。然后,我们使用深神经网络(DNN)将LSTM状态映射到每个时间帧到下一个测量步骤的设计。最后,我们采用另一个DNN将最终的LSTM状态映射到所需的解决方案。我们调查了无线通信中建议框架的性能框架的性能。特别地,我们考虑用于MMWAVE光束对准的自适应波束形成问题和反射对准的自适应可重构智能表面感测问题。数值结果表明,所提出的深度主动传感策略优于现有的自适应或非一种非应用感测方案。
translated by 谷歌翻译